Des chercheurs ont dcouvert que le modle d'IA GPT-4 d'OpenAI est capable de pirater des sites web et de voler des informations dans des bases de donnes en ligne sans aide humaine

Des chercheurs ont dmontr que les grands modles de langage sont capables de pirater des sites web de manire autonome, en effectuant des tches complexes sans connaissance pralable de la vulnrabilit. Le modle GPT-4 d'OpenAI pouvait pirater 73 % des sites web lors de l'tude. Cette tude rappelle la ncessit pour les fournisseurs de LLM de rflchir soigneusement au dploiement et la publication des modles.

Les modles d'IA, qui font l'objet de proccupations constantes en matire de scurit concernant les rsultats nuisibles et biaiss, prsentent un risque qui va au-del de l'mission de contenu. Lorsqu'ils sont associs des outils permettant une interaction automatise avec d'autres systmes, ils peuvent agir seuls comme des agents malveillants.

Des informaticiens affilis l'universit de l'Illinois Urbana-Champaign (UIUC) l'ont dmontr en utilisant plusieurs grands modles de langage (LLM) pour compromettre des sites web vulnrables sans intervention humaine. Des recherches antrieures suggrent que les LLM peuvent tre utiliss, malgr les contrles de scurit, pour aider la cration de logiciels malveillants.

Les chercheurs Richard Fang, Rohan Bindu, Akul Gupta, Qiusi Zhan et Daniel Kang sont alls plus loin et ont montr que les agents aliments par des LLM - des LLM dots d'outils d'accs aux API, de navigation web automatise et de planification base sur le retour d'information - peuvent se promener seuls sur le web et s'introduire dans des applications web bogues sans surveillance. Ils dcrivent leurs rsultats dans un article intitul "LLM Agents can Autonomously Hack Websites" (Les agents LLM peuvent pirater des sites web de manire autonome).

Les chercheurs rsument leurs travaux en expliquant :

Ces dernires annes, les grands modles de langage (LLM) sont devenus de plus en plus performants et peuvent dsormais interagir avec des outils (c'est--dire appeler des fonctions), lire des documents et s'appeler eux-mmes de manire rcursive. Par consquent, ces LLM peuvent dsormais fonctionner de manire autonome en tant qu'agents. Avec l'augmentation des capacits de ces agents, des travaux rcents ont spcul sur la manire dont les agents LLM affecteraient la cyberscurit. Cependant, on ne sait pas grand-chose des capacits offensives des agents LLM.

Dans ce travail, nous montrons que les agents LLM peuvent pirater des sites web de manire autonome, en effectuant des tches aussi complexes que l'extraction aveugle de schmas de base de donnes et les injections SQL sans retour d'information de la part de l'homme. Il est important de noter que l'agent n'a pas besoin de connatre la vulnrabilit l'avance. Cette capacit est rendue possible de manire unique par les modles de frontire qui sont hautement capables d'utiliser des outils et de tirer parti d'un contexte tendu. Nous montrons notamment que GPT-4 est capable de tels piratages, ce qui n'est pas le cas des modles open-source existants. Enfin, nous montrons que GPT-4 est capable de trouver de manire autonome des vulnrabilits dans des sites web en pleine nature. Nos rsultats soulvent des questions sur le dploiement grande chelle des LLM.

Des agents LLM autonomes capables de pirater des sites web

Les grands modles de langage (LLM) sont devenus de plus en plus performants, avec des avances rcentes permettant aux LLM d'interagir avec des outils via des appels de fonction, de lire des documents et de s'auto-inviter rcursivement. Collectivement, ces lments permettent aux LLM de fonctionner de manire autonome en tant qu'agents. Par exemple, les agents LLM peuvent contribuer la dcouverte scientifique.

Ces agents LLM devenant plus performants, des travaux rcents ont spcul sur le potentiel des LLM et des agents LLM contribuer l'offensive et la dfense en matire de cyberscurit. Malgr ces spculations, on sait peu de choses sur les capacits des agents LLM en matire de cyberscurit. Par exemple, des travaux rcents ont montr que les LLM peuvent tre incits gnrer des logiciels malveillants simples, mais n'ont pas explor les agents autonomes.

L'image suivant prsente le schma de l'utilisation d'agents LLM autonomes pour pirater des sites web :

Les agents LLM peuvent pirater des sites web de manire autonome, en effectuant des tches complexes sans connaissance pralable de la vulnrabilit. Par exemple, ces agents peuvent effectuer des attaques complexes de type SQL union, qui impliquent un processus en plusieurs tapes (38 actions) d'extraction d'un schma de base de donnes, d'extraction d'informations de la base de donnes base sur ce schma, et d'excution du piratage final. L'agent le plus performant peut pirater 73,3 % (11 sur 15, russite 5) des vulnrabilits testes, ce qui montre les capacits de ces agents. Il est important de noter que l'agent LLM est capable de trouver des vulnrabilits dans des sites Web du monde rel.

Pour donner ces agents LLM la capacit de pirater des sites web de manire autonome, ils leur ont donn la possibilit de lire des documents, d'appeler des fonctions pour manipuler un navigateur web et rcuprer des rsultats, et d'accder au contexte des actions prcdentes. Ils ont fourni en outre l'agent LLM des instructions dtailles sur le systme. Ces capacits sont dsormais largement disponibles dans les API standard, telles que la nouvelle API OpenAI Assistants. Par consquent, ces capacits peuvent tre mises en uvre en seulement 85 lignes de code avec des outils standard.

Les rsultats ont montr que ces capacits permettent au modle le plus performant au moment de la rdaction (GPT-4) de pirater des sites web de manire autonome. De manire incroyable, GPT-4 peut effectuer ces piratages sans connaissance pralable de la vulnrabilit spcifique. Tous les composants sont ncessaires pour obtenir des performances leves, le taux de russite chutant 13 % lorsque l'on supprime des composants.

Taux de russite du GPT-4 par vulnrabilit

Les rsultats ont montr galement que le piratage des sites web a une forte loi d'chelle, le taux de russite de GPT-3.5 tombant mme 6,7 % (1 vulnrabilit sur 15). Cette loi d'chelle se poursuit pour les modles open-source, chaque modle open-source test atteignant un taux de russite de 0 %.

L'tude a galement analys le cot du piratage autonome de sites web. Si l'on tient compte des checs dans le cot total, la tentative de piratage d'un site web cote environ 9,81 dollars. Bien que coteux, ce cot est probablement beaucoup moins lev que l'effort humain (qui peut coter jusqu' 80 dollars).

Conclusion

Cette recherche montre que les agents LLM peuvent pirater des sites web de manire autonome, sans connatre la vulnrabilit l'avance. L'agent le plus performant peut mme trouver de manire autonome des vulnrabilits dans des sites Web du monde rel. Les rsultats montrent en outre des lois d'chelle fortes avec la capacit des LLM pirater des sites web : GPT-4 peut pirater 73 % des sites web construits pour l'tude, contre 7 % pour GPT-3.5 et 0 % pour tous les modles open-source. Le cot de ces piratages par des agents LLM est probablement beaucoup moins lev que le cot d'un analyste en cyberscurit.

Combins, ses rsultats montrent la ncessit pour les fournisseurs de LLM de rflchir soigneusement au dploiement et la publication des modles. On peut souligner deux rsultats importants. Tout d'abord, l'tude constate que tous les modles open-source existants sont incapables de pirater de manire autonome, mais que les modles frontires (GPT-4, GPT-3.5) le sont. Deuximement, les chercheurs pensent que ces rsultats sont les premiers exemples de dommages concrets causs par les modles frontires. Compte tenu de ces rsultats, ils esprent que les fournisseurs de modles open source et ferm examineront attentivement les politiques de diffusion des modles frontires.

Source : "LLM Agents can Autonomously Hack Websites"

Et vous ?

Pensez-vous que cette tude est crdible ou pertinente ?
Quel est votre avis sur le sujet ?